218 research outputs found
Comparing high dimensional partitions, with the Coclustering Adjusted Rand Index
We consider the simultaneous clustering of rows and columns of a matrix and
more particularly the ability to measure the agreement between two
co-clustering partitions. The new criterion we developed is based on the
Adjusted Rand Index and is called the Co-clustering Adjusted Rand Index named
CARI. We also suggest new improvements to existing criteria such as the
Classification Error which counts the proportion of misclassified cells and the
Extended Normalized Mutual Information criterion which is a generalization of
the criterion based on mutual information in the case of classic
classifications. We study these criteria with regard to some desired properties
deriving from the co-clustering context. Experiments on simulated and real
observed data are proposed to compare the behavior of these criteria.Comment: 52 page
Une revue bibliographique de la classification croisée au travers du modèle des blocs latents
International audienceWe present here model-based co-clustering methods, with a focus on the latent block model (LBM). We introduce several specifications of the LBM (standard, sparse, Bayesian) and review some identifiability results. We show how the complex dependency structure prevents standard maximum likelihood estimation and present alternative and popular inference methods. Those estimation methods are based on a tractable approximation of the likelihood and rely on iterative procedures, which makes them difficult to analyze. We nevertheless present some asymptotic results for consistency. The results are partial as they rely on a reasonable but still unproved condition. Likewise, available model selection tools for choosing the number of groups in rows and columns are only valid up to a conjecture. We also briefly discuss non model-based co-clustering procedures. Finally, we show how LBM can be used for bipartite graph analysis and highlight throughout this review its connection to the Stochastic Block Model.Nous présentons ici les méthodes de co-clustering, avec une emphase sur les modèles à blocs latents (LBM) et les parallèles qui existent entre le LBM et le Modèle à Blocs Stochastiques (SBM), notamment pour l'analyse de graphes bipartites. Nous introduisons différentes variantes du LBM (standard, sparse, bayésien) et présentons des résultats d'identifiabilité. Nous montrons comment la structure de dépendance complexe induite par le LBM rend l'estimation des paramètres par maximum de vraisemblance impossible en pratique et passons en revue des méthodes d'inférence alternatives. Ces dernières sont basées sur des procédures itératives, combinées à des approximations faciles à maximiser de la vraisemblance, ce qui les rend malaisés à analyser théoriquement. Il existe néanmoins des résultats de consistence, partiels en ce qu'ils reposent sur une condition raisonnable mais encore non démontrée. De même, les outils de sélection de modèle actuellement disponibles pour choisir le nombre de cluster reposent sur une conjecture. Nous replacons brièvement LBM dans le contexte des méthodes de co-clustering qui ne s'appuient pas sur un modèle génératif, particulièrement celles basées sur la factorisation de matrices. Nous concluons avec une étude de cas qui illustre les avantages du co-clustering sur le clustering simple
Ça ne dure jamais plus d'une heure, le ciel ; suivi de Donner sens
La première partie de ce mémoire de maîtrise présente un recueil qui compte huit nouvelles et quatre récits. « Ça ne dure jamais plus d'une heure, le ciel » regroupe des textes à première vue hétéroclites, mais qui sont tous mus par une idée, celle de la rencontre, ou plutôt celle de l'impossibilité de la rencontre. Les nouvelles deviennent des récits et les récits, des fictions. Les personnages, qu'ils aient réellement existé ou non, partagent les mêmes lieux (Canada, Grande-Bretagne, Afrique du Sud, Népal, Chine, etc.) et les mêmes préoccupations philosophiques, ces dernières étant regroupées autour du thème de la solitude. Peut-on se quitter soi-même pour aller vers l'autre? Tous les textes de ce recueil enferment cette question dans un cercle vicieux qui, dans un effet boomerang, résout et ne résout pas le problème. S'ensuit une construction presque toujours circulaire où la fin du texte renvoie à son commencement et vice versa. La deuxième partie de ce mémoire est un essai des plus personnels sur ma démarche d'écrivain. En vingt-cinq fragments réunis sous le signe du problème de l'intersubjectivité, « Donner sens » explore le problème du partage des expériences – qui est au cœur de la partie création de ce mémoire –, mais aussi celui de la mort, où se cristallisent paradoxalement les questions du sens de la vie. Peut-on réellement sortir de soi et toucher l'autre en n'utilisant que des mots? La réponse ne peut être qu'antinomique, évidemment, puisqu'elle ne peut s'articuler qu'en mots, justement. Le corpus de références qui a permis d'écrire cet essai est essentiellement issu de la tradition phénoménologique (Husserl, Heidegger, Merleau-Ponty), mais se nourrit aussi de la pensée d'auteurs littéraires latino-américains tels Jorge Luis Borges et Julio Cortazar.\ud
______________________________________________________________________________ \ud
MOTS-CLÉS DE L’AUTEUR : nouvelle, récit, solitude, sens, intersubjectivité
Package 'blockseg'
Package for the software RThis package is designed to segment a matrix in blocks with constant values
Modèle des blocs latents avec une classe de bruit
International audienceCo-clustering is known to be a very powerful and efficient approach in unsupervised learning because of its ability to partition data based on both modes of a dataset. However, in high-dimensional context co-clustering methods may fail to provide a meaningful result due to the presence of noisy and/or irrelevant features. In this talk, we propose to tackle this issue by proposing a novel co-clustering model, based on the latent block model, and which assumes the existence of a noise cluster, that contains all irrelevant features. Experimental results on synthetic datasets show the efficiency of our model in the context of high-dimensional noisy data. Finally, we highlight the interest of the approach on two real datasets which goal is to study genetic diversity across the world.La classification croisée est connue pour être une approche très efficace en apprentissage non supervisé en raison de sa capacité à partitionner simultanément les lignes et colonnes d'une matrice de données. Cependant, dans un contexte de grande dimension, les méthodes de classification croisée peuvent être perturbées en raison de la présence de colonnes bruitées et/ou non discriminantes. Dans cet exposé, nous abordons ce problème en proposant un nouveau modèle de classification croisée, à partir du modèle des blocs latents, qui modélise l'existence d'une classe de bruit, à laquelle appartient l'ensemble de ces variables non pertinentes pour le partitionnement des données. Les résultats obtenus sur des données synthétiques montrent l'efficacité de notre modèle dans le contexte des données bruitées en grande dimension. Enfin, nous soulignons l'intérêt de cette approche sur deux jeux de données réelles initialement proposés pour étudier les diversités génétiques à travers le monde
- …